Глава 1. Мировой рынок информационных услуг
1.5. Виды информации, хранимой в Интернете и профессиональных базах данных
В соответствии с законом от 20 февраля 1995 г. № 224-ФЗ "Об информации, информатизации и защите информации" под термином "информация" понимается сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления. Специалисты в области теории познания утверждают, что человек признает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются классами объектов. Предметная область - это классы объектов, информация о котором необходима в данном виде деятельности человека. В каждой предметной области потребителей интересует четко определенный перечень свойств и глубина описания этих свойств.
Информация о предметной области может быть представлена в двух видах: формализованном и в виде текста на естественном языке.
Формализованное описание конкретного объекта включает имя свойства (характеристики) и значение этого свойства для данного объекта. Имя свойсива отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно (например, значение свойства "организационно-правовая форма фирмы, организации" должна выбираться из нормированного словаря, а значение свойства - "название организации является произвольным").Формализованное описание объекта во многом схоже с анкетной формой описания объекта. Формализованное описание информации называется числовым.
Названия классов объектов, свойств и областей возможных значений этих свойств (характеристик), т.е. язык формализованного описания для каждой предметной области, разрабатывают квалифицированные специалисты данного вида деятельности. С помощью отдельных свойств устанавливаются связи между объектами. Так, например, если описаны 2 объекта: фирма и товар, то между ними устанавливается связь - отношение, указывающее, что данная фирма выпускает этот товар. Описание такого формализованного языка после согласования с источниками и потребителями информации в данной предметной области издается в виде нормативного документа, и на основе ее создаются БД формализованной информации. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в которой он работает. Формализованный язык описания предметной области выполняет следующие основные функции:
Другим видом информации о предметной области является информация, представляющая в виде ткста на естественном языке.
Для того, чтобы понять, в какой степени информация на естественном языке, накапливаемая в ИС, подходит для удовлетворения информационных потребностей пользователя, рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отображение этой действительности на естественном языке. Индивидуальное значение предметной области источником и потребителем информации складывается из совокупности представлений и понятий. Представления - это чувственно-наглядные образы объектов реального мира. Источником формирования представлений является психологические процессы ощущения и восприятия, а также информация, получаемая от других членов общества в процессе общения. В результате создаются представления об объектах реального мира. Представления носят субъективный характер, который определяется внутренним психологическим миром данного человека. Хотия у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, который позволяет использовать представления в процессе общения.
Понятия образуются в результате логического осмысления представлений об объекте реального мира и является формой абстрактного мышления, отражающей и фиксирующей существенные признаки данных объектов. Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связаны друг с другом и является формой отражения реальной дейтсвительностив мышлении.
Язык - это средство, с помощью которого люди передают друг другу информацию о реальном мире.
Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественного языка: одно и то же слово приобретало множество различных значений, и для одного и того же слова использовалосьнесколько словесных выражений. Т.о., общими недостатками естественного языка с позиций оценки эффективности поиска является избыточность и недостаточность.
Избыточность проявляется в следующем:
Недостаточность выражения на естественном языке проявляется в следующем:
План содержания - это смысл сообщения, т.е. результат процесса мышления, и план выражения - это произвольный текст на естественном языке. Т.о., тексты на естественном языке, хранящиеся в ИС, находятся на уровне плана выражения и характеризуются всеми недостатками естественного языка, которые были отмечены выше. Выявленные недостатки следует рассматривать лишь с позиций эффективного поиска сообщений в ИС. Причина неоднозначности выражений, например. эллипсность, при рассмотрении под другим углом была отнесена к достоинствам естественного языка.
Потребитель информации, пользователь нуждается в получении информации о предметной области в соответствии со своими представлениями об объектах, свойствах и отношениях в этой области. Свой запрос он также формулирует на уровне плана выражения.
Т.о., в самой ИС, содержащей тексты на естественном языке, мы имеем массив планов выражения источников на естественном языке, а на входе ИС мы имеем множество запросов в виде планов выражения, сформулированных потребителями.
Для того, чтобы решить задачу поиска необходимой потьребителю информации, необходимо смоделировать (представить) о каком фрагменте предметной области потребитель хочет получить информацию. Далее необходимо просмотреть хранящиеся документы - планы выражения, составленные источниками, представить, что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из документов, которые отвечают на поставленный вопрос полностью или частично.
Работы в области машинного перевода и теория построения документальных ИС, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области.
Однако общество нуждалось в построении документальных ИС, в первую очередб в области научно-технической информации. Для того, чтобы облегчить поиск в больших массивах текстов информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специльных поисковых языков. С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялось сравнение поисково-образовательных запросов и поисково-образовательных документов, которое проводилось на одном и том же искусственном языке. Такой подход является вынужденным.
Из-за недостатков естественного языка, документированные ИС не дают ответа на вопрос потребителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смысловое содержание этих документов.